メインコンテンツへスキップ

All Posts

News bits

OpenAIがGPT Realtimeを正式版を公開、最先端の音声対話モデル

OpenAIがRealtime APIをベータ版から正式版にアップデートし、新しい音声対話モデル「gpt-realtime」を発表。 低遅延・高信頼性の音声認識と生成、複雑な指示の理解と正確なツール呼び出し、より自然で表現豊かな音声生成、システムメッセージと開発者プロンプトの解釈能力向上などが行われた。また画像入力の対応、MPCサポートの有効化などの改善も行われた。

性能向上:

  • 英数字検出精度:82.8%(従来65.6%から向上)
  • 指示順守精度:MultiChallengeベンチマーク30.5%(従来20.6%から向上)
  • 関数呼び出し精度:ComplexFuncBench 66.5%(従来49.7%から向上)

料金:

  • 音声入力トークン:100万件あたり32ドル
  • キャッシュ済み入力:0.4ドル
  • 音声出力トークン:100万件あたり64ドル
  • 従来モデル比20%安

出展:OpenAI Developers - X

著者について

Hi there. I'm hrdtbs, a frontend expert and technical consultant. I started my career in the creative industry over 13 years ago, learning on the job as a 3DCG modeler and game engineer in the indie scene.

In 2015 I began working as a freelance web designer and engineer. I handled everything from design and development to operation and advertising, delivering comprehensive solutions for various clients.

In 2016 I joined Wemotion as CTO, where I built the engineering team from the ground up and led the development of core web and mobile applications for three years.

In 2019 I joined matsuri technologies as a Frontend Expert, and in 2020 I also began serving as a technical manager supporting streamers and content creators.

I'm so grateful to be working in this field, doing something that brings me so much joy. Thanks for stopping by.